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摘 要 : [目的 /意义 ] 共 词 分 析 作 为 主题 识别 的 重要 方法 ,存在 一 定 的 局 限 和 不 足 , 将 Word2Vec 加 权 向 量 与 共 词 分 析 相 结 
合 , 有 利于 明确 具体 文献 的 主题 归属 ,更 好 地 对 主题 的 发 展演 化 进行 分 析 。|[ 方 法 /过 程 ] 在 运用 共 词 分 析 进 行 主 
题 聚 类 的 基础 上 ,通过 Word2Vec 加 权 向 量 分 别 计算 文献 向 量 与 聚 类 主题 向 量 ,并 基于 余弦 相似 度 进行 文献 与 主 
题 的 语义 匹配 。[ 结果 /结论 ] 国内 外 知识 共享 领域 的 实证 分 析 表 明 ,该 方法 能 较 好 地 将 相关 文献 匹配 至 对 应 主 
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题 , 并 能 从 文献 层面 对 主题 特征 及 发 展演 化 进行 动态 分 析 。 
共 词 分 析 语义 匹配 ”知识 共享 ”主题 演化 


CJ 科技 文献 作为 一 种 重要 的 知识 载体 ,蕴含 着 丰富 
的 请 义 内 容 和 主题 信息 ,通过 对 海量 科技 文献 的 内 容 
美 纲 进行 控 掘 和 分 析 , 不 仅 有 利于 图 书 情报 工作 实现 
由 净 献 服务 ,信息 服务 向 知识 服务 转变 ,而 且 有 助 于 政 
/管用 研 机 构 和 相关 人 员 等 了 解 领域 的 主题 内 容 、 追 淹 
主题 的 发 展演 化 .把 握 领域 的 发 展 趋势 .发现 潜在 的 研 
完 捷 题 等 。 然 而 , 常 被 用 于 文献 主题 识别 研究 的 共 词 
公关 法 存在 平等 对 待 词 对 共 现 强度 " .无 法 探知 具体 
文献 所 包含 的 主题 分 布 中 等 不 足 。 因此 ,基于 
Word2Vec 能 表征 文本 语义 的 特点 ,本 研究 将 共 词 分 析 
和 Word2Vec 结合 ,构建 一 种 基于 共 词 和 Word2Vec 加 
权 词 向 量 的 文献 - 主题 语义 匹配 分 析 方法 ,以 便 对 基 
于 共 词 网 络 的 聚 类 主题 进行 发 文 趋势 ,发 文 时 间 主题 
内 容 演变 等 文献 层面 特征 的 测度 与 分 析 。 


2 相关 研究 综述 


主题 识别 研究 总 体 上 可 以 分 为 基于 引文 网 络 的 间 
接 方法 和 基于 文本 内 容 挖掘 的 直接 方法 ,其 中 ,后 者 万 
以 共 词 分 析 法 .LDA 主题 模型 等 较为 常见 ,近年 来 也 出 
现 了 结合 Word2Vec 词 向 量 的 主题 探测 方法 。 


2.1 共 词 分 析 
共 词 分 析 是 由 M.，Callon 等 在 20 世纪 80 年 代 提 
出 ,利用 文献 集中 专业 词汇 或 者 名 词 短 语 共同 出 现 
这 一 情况 ,通过 大 规模 提取 这 种 词语 共 现 关系 ,利用 聚 
类 方法 把 词语 和 词语 间 复 杂 的 共 词 网 状 关系 简化 为 数 
目 相对 较 少 的 类 团 之 间 的 关系 “ ,从 而 把 关系 不 明晰 
的 文献 集中 的 主题 直观 地 表达 出 来 。 从 该 方法 被 提出 
开始 ,国内 外 学 者 就 围绕 共 词 聚 类 分 析 方法 的 原理 .应 
用 过 程 等 讨论 了 存在 的 问题 ,如 忽略 词 间 关系 .忽略 词 
在 文献 中 的 重要 程度 .结果 独立 于 具体 文献 等 "…” ， 
并 针对 该 方法 存在 的 问题 提出 相应 的 改进 建议 或 措 
施 ,如 基于 文献 多 属性 加 权 的 共 词 分 析 方 法 '” 、 连 边 社 
团 检测 算法 对 共 词 分 析 聚 类 结果 的 改进 ”等 。 
2.2 结合 Word2Vec 的 主题 识别 方法 

Word2Vec 是 Google 在 2013 年 开发 的 开源 词 向 量 
训练 工具 ,能 够 把 文本 信息 从 非 结 构 化 形式 转化 为 向 
量化 形式 ,生成 的 词 向 量 和 语义 相关 , 且 更 加 关注 上 
下 文 逻 辑 ” ,使 得 相关 或 者 相似 的 词语 在 距离 上 更 加 
接近 。 把 Word2Vec 等 语义 模型 引入 主题 识别 主要 分 
为 两 种 结合 方式 :中 将 主题 识别 模型 与 Word2Vec 词 向 
量 进行 模型 层面 的 融合 来 提升 主题 识别 效果 ,如 颜 端 
武 等 发 现 将 Word2Vec 词 向 量 与 LDA 文档 -主题 分 布 
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相 结合 ,能 够 更 加 全 面 准确 地 描述 微 博 文本 的 语义 信 
息 "" ; 王 英 泽 等 利用 Word2Vec 模型 将 文本 集 转化 为 
词汇 关系 矩阵 ,将 其 作为 LDA 模型 的 输入 数据 进行 主 
题 识 别 ,通过 对 主题 建 模 结果 的 解读 ,分 析 了 欧盟 、 英 
国 .美国 颠覆 性 技术 相关 政策 文本 的 主题 特征 ;C. 
EE. Moody 将 LDA 舱 入 Word2Vec 的 学 习 过 程 中 ,不 仅 
能 学 习 单词 的 词 嵌入 ,还 同时 学 习 主题 表征 和 文档 表 
征 ,提高 了 LDA 生成 主题 的 语义 凝练 度 王 ; 王 卫 军 等 
利用 Word2Vec 把 关键 词 共 现 关系 映射 到 低 维 向 量 空 
间 中 ,发 现 这 种 方法 不 仅 可 以 完成 关键 词 在 共 现 网 络 
中 的 重要 性 评价 ,还 可 以 对 学 科 关键 词 之 间 的 共 现 关 
系 大 小 进行 量化 5 。@@ 利 用 词 向 量 进 行文 本 间 、 词 汇 
间 相 关 性 的 匹配 来 实现 更 细 化 的 主题 分 析 , 如 同感 枫 引 
ASWord2Vec 来 识别 DTM 主题 模型 下 的 相近 主题 词 , 实 
现 字 主题 词 中 同义词 的 归并 ” ; 周 云 泽 等 选取 LDA 所 
识别 主题 中 隶属 概率 最 高 的 10 个 主题 词 与 Word2Vec 
词 订 量 相 结合 的 方法 来 表征 主题 向 量 ,以 实现 相似 主题 
的 西 配 ” ;C.，Li 等 也 证 明了 Word2Vec 与 LDA 模型 结 
会 如 权 向 量 能 够 有 效 将 技术 主题 特征 表示 为 低 维 稠密 
的 加 量 形式 ,并 利用 余弦 相似 度 实现 了 文献 和 主题 在 语 
XE 的 匹配 5 ,从 而 实现 更 为 精细 化 的 语义 建 模 。 

四 综 上 所 述 , Word2Vec 与 主题 词 .文本 词汇 的 有 机 
结合 ,可 以 有 效 地 表征 主题 或 者 文本 的 语义 特征 ,实现 
更 饭 粒 度 的 语义 关联 与 分 析 , 目前 研究 主要 聚焦 于 将 
LDR 与 Word2Vec 相 结合 ,但 LDA 主题 模型 更 适用 于 
长 实 本 ,对 一 些 短文 本 的 主题 识别 效果 不 佳 ,此 外 模型 
主题 数目 也 需要 根据 困惑 度 曲线 人 为 确定 ,针对 这 
此 同 题 虽 有 一 些 改进 ""-" ,但 总 体 还 没有 形成 相对 成 
熟 的 措施 。 此 外 ,将 共 词 分 析 与 Word2Vec 相 结合 的 研 
究 相 对 较 少 ,主要 是 利用 Word2Vec 学 习 或 者 替代 共 现 
关系 , 较 少 利用 到 Word2Vec 在 文本 匹配 上 的 优 
势 。 考 虑 到 共 词 分 析 所 得 主题 仅 表现 为 不 同 关键 词 的 
聚 类 ,其 结果 独立 于 文献 ,为 克服 对 于 任意 一 篇 文献 无 
法 探知 其 中 所 包含 主题 分 布 的 不 足 中 ,本 研究 尝试 将 
共 词 分 析 和 加 权 的 Word2Vec 结合 ,利用 Word2Vec 能 
表征 文本 语义 的 特点 ,构建 一 种 基于 共 词 分 析 和 
Word2Vec 加 权 词 向 量 的 主题 - 文献 语义 匹配 分 析 方 
法 ,并 用 于 对 主题 进行 文献 层面 的 特征 测度 及 其 发 展 
脉络 的 演化 分 析 。 


3 方法 构建 和 主题 测度 


3.1 方法 构建 
为 解决 共 词 分 析 无 法 进行 文献 层面 计量 的 问题 ， 
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本 研究 将 Word2Vec 模型 应 用 于 共 词 分 析 ,实现 共 词 网 
络 下 的 主题 - 文献 相似 度 匹 配 , 从 而 将 不 同文 献 划分 
给 对 应 的 主题 。 首 先 ,利用 题 录 数据 提供 的 关键 词 信 
息 构 建 分 词 所 需 的 领域 词典 ,在 数据 清洗 后 选取 高 频 
词 构建 关键 词 共 现 网 络 并 进行 主题 聚 类 ;其 次 ,利用 题 
目 .摘要 和 关键 词 作为 文本 数据 训练 Word2vec 词 向 
量 , 基 于 词 向 量 构建 主题 向 量 和 文献 向 量 ;最 后 ,根据 
设 定 的 规则 实现 文献 与 主题 的 匹配 ,并 选取 主题 测度 
指标 对 结果 进行 测度 与 分 析 。 具 体 流程 如 下 : 
3.1.1 构建 共 词 矩 阵 

利用 Python 的 jieba 分 词 包 ,提取 题 录 数据 中 的 关 
键 字 建立 分 词 所 需 的 领域 词典 ,进行 分 词 和 词性 筛选 ， 
在 此 基础 上 构建 共 词 矩阵 ,分 为 三 个 步骤 :四 同义词 归 
并 ; 避 高 频 关键 词 选取 ;矩阵 构建 。 其 中 ,对 于 同 义 
词 的 归并 ,采用 (word; 阁 word;)/(word; Uword,) 计 算 关 
键 词 之 间 的 相同 字符 重 倒 度 ,word 表示 关键 字 i 中 的 
字符 集合 ,如 关键 字 “ 结 构 方 程 模型 "的 字符 集合 为 
| 结 , 构 , 方 , 程 , 模 ,型 | ,针对 相同 字符 重 赫 度 较 高 的 
词汇 再 辅 以 人 工 筛 选 得 到 同义词 ;对 于 高 频 关 键 词 的 
筛选 ,本 研究 采用 普 赖 斯 公式 1 =0. 749 VW ”, 其 
中 N, 为 词 频 最 高 的 关键 词 出 现 次 数 。 对 共 词 矩阵 进 
行 聚 类 ,从 中 提取 出 不 同 研究 主题 ,每 个 主题 下 的 关键 
词 就 是 该 主题 的 主题 词 。 
3.1.2 进行 文献 -主题 匹配 

Word2Vec 词 向 量 模型 本 质 上 是 具有 ”输入 层 - 隐 
藏 层 -输出 层 ” 的 三 层 神 经 网 络 模型 ,如 图 1 所 示 ， 
w(t) 为 目标 词 ,其 上 下 文 词汇 为 w(t 一 r)、…、w(t 一 
1) ww (t+1) 、… ww (t+r)。 该 模型 有 CBOW (Continu- 
ous Bag of Words ) 和 Skip-gram 两 种 学 习 方 式 , 其中， 
Skip-gram 模型 是 根据 目标 词 预 测 目 标 词 的 上 下 文 。 
本 研究 采用 Skip-gram 学 习 方 式 ,利用 题目 、 摘 要 和 关 
键 词 的 组 合 来 代替 单 篇 文献 ,将 样本 数据 作为 训练 
Word2Vec 模型 的 数据 集 。 然 后 对 共 词 矩阵 聚 类 得 到 
的 主题 topic, ,利用 训练 好 的 Word2Vec 模型 生成 topic, 
中 每 个 主题 词 的 词 向 量 ,基于 词 频 关系 将 词 向 量 进行 
加 权 求 和 从 而 得 到 topic, 的 向 量化 表示 ; 

卫 = Ww) X2W20 + wy X WV 十 + WwW + WV 


topi 
公式 (1) 


t=1,2,.…,7T 
公式 (2) 


Freq( k,) 
by Freq(k,) 
其 中 ,w2v; 指 代 主 题词 友 的 Word2Vec 词 向 量 ,7 
代表 主题 数 ,k, 表示 topic, 的 主题 词 数量 ,w, 是 妈 词 向 


i=1,2,.,k, 


? 
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CBOW 学 习 方 式 Skip-gram 学 习 方式 


图 1 CBOW 和 Skip-gram 模型 网 络 结构 [3 


量 的 权重 , 即 主题 词 避 的 频次 与 该 主题 下 所 有 主题 词 
的 总 频次 之 比 。 

__ 在 文献 向 量化 表示 的 处 理 上 ,依然 采用 题目 .摘要 
和 关键 词 的 组 合 ( 代 巷 单 篇 文献 ) 作 为 数据 产 ,但 摘要 
开本 能 会 存在 一 些 高 频 的 无 关 间 语 ,为 了 更 好 地 衡量 
词汇 的 重要 程度 ,我 们 采用 TF-IDF 对 数据 源 中 每 个 词 
语 的 词 向 量 进行 加 权 进 而 得 到 文献 向 量 w20_yidf, ,以 
隆 全 区 分 度 低 的 高 频 词 的 影响 力 5) 和 提高 Word2Vee 
的 芋 征 表示 效果 。 最 后 ,通过 余弦 相似 度 计算 文献 
时 是 w2v_Widf, 与 主题 向 量 WW 之 间 的 相关 性 ,得 到 每 
篇 贡献 和 各 个 主题 之 间 的 相似 程度 ; 


CN 
CN 


= oSimilar,es = cosine( Wi,, w2v_tfidf, ) 公式 (3) 
过 对 于 7 个 主题 .D 篇 文献 来 说 ,总 共 需 要 计算 7xD 
次 宫 献 隶属 主题 瑟 配 规则 为 :D 如 果菜 文献 4, 对 于 任意 
一 企 主题 topic, 的 Similar,y 大 于 等 于 B, 则 该 文献 隶属 于 
top 记 ;如果 某 文献 d 对 于 任意 一 个 主题 topic, 的 Simil- 
or 名 都 小 于 B, 则 认为 该 文献 仅 录 属于 最 大 Similar,,, 的 
topic,。 通 过 这 种 方法 ,可 以 把 一 篇 文献 分 配 到 不 同 的 主 
题 , 且 每 篇 文献 可 能 不 止 对 应 一 个 主题 ,这 也 和 实际 情况 
相符 合 ,因为 很 多 文献 的 内 容 可 能 会 和 多 个 主题 相关 。 
传统 上 共 词 分 析 可 以 结合 社会 网 络 分 析 、 多 维 尺 
度 分 析 .战略 坐标 图 等 方法 来 对 主题 进行 识别 ,但 都 依 
赖 关键 词 进行 分 析 , 相 应 的 主题 演化 分 析 也 只 是 对 不 
同时 间 段 聚 类 主题 进行 分 析 , 究 其 原因 在 于 关键 词 和 
文献 之 间 并 无 连接 ,本 方法 实现 了 共 词 网 络 下 的 主题 
-文献 之 间 的 匹配 ,使 得 共 词 分 析 能 从 文献 层面 量化 
研究 主题 的 演化 脉络 。 此 外 , 现 有 基于 Word2vec 构建 
主题 向 量 的 方法 往往 固定 选择 每 个 主题 前 h 个 主题 
词 , 没 有 考虑 不 同 主题 规模 不 同 所 带 来 的 影响 ,本 方法 
基于 共 词 网 络 的 高 频 关键 词 构建 主题 向 量 则 更 全 面包 


含 了 主题 的 语义 特征 。 


遇 


3.2 ”主题 测度 和 演化 分 析 
3.2.1 主题 特征 测度 

对 于 主题 特征 的 测度 指标 , 常见 的 有 主题 强 
度 ” .新颖 度 * 站 影响 力 ” 交叉 性 ”1 关注 度 ” 
等 ,总 的 来 看 ,相关 的 测度 指标 通常 会 引入 主题 对 应 的 
文献 数量 以 及 发 表 时 间 , 因 此 本 研究 采用 主题 强度 、 关 
注 度 ,新颖 度 三 项 指标 研究 各 个 主题 的 特点 。 

(1) 主题 强度 (Strength Index ,SI) 。 主 题 强度 是 一 个 
主题 热门 与 否 的 最 直观 的 表现 。 从 数量 上 看 ,一 个 主题 累 
积 的 文献 越 多 ,说 明科 研 人 员 对 其 投入 的 精力 越 大 ,在 学 
术 领 域 中 的 影响 力 越 深远 ,该 主题 的 强度 也 越 强 ; 

ST= 5 di 公式 (4) 
二 | 如 果 文 献上 隶属 于 主题 ; 
”lo 如果 文献 i 不 属于 主题 : 
主题 -文献 匹配 方法 同上 。 

(2 ) 关 注 度 (Attention Index ,AT) 。 关 注 度 是 一 个 动 
态 变 化 的 过 程 ,需要 从 时 间 和 数量 两 方面 进行 描述 。 
从 时 间 维 度 上 看 ,由 于 科研 人 员 的 注意 力 有 限 ,再 加 上 
主题 自身 发 展 状况 与 社会 发 展 变 化 等 因素 ,科研 人 员 
对 于 某 个 主题 的 关注 程度 随时 间 会 产生 波动 ;从 数量 
上 看 ,关注 度 相当 于 每 年 的 主题 强度 高 低 , 即 每 年 该 主 
题 下 的 文献 数量 ,利用 主题 -文献 匹配 方法 获取 各 主 
题 下 每 年 产 出 的 文献 数量 ,可 以 量化 科研 人 员 对 于 主 
题 的 关注 程度 : 


417= SP 公式 (5 ) 
其 中 ,SL% 代表 每 年 隶属 于 topic, 的 文献 数量 ,其 


中 主题 - 文献 匹配 方法 同上 。 

(3) 新 颖 度 。 由 于 文献 随 着 “年 龄 ”的 增长 ,其 内 
容 会 日 益 变 得 陈旧 过 时 ,作为 情报 源 的 价值 不 断 降 低 ， 
而 新 文献 的 涌 入 ,伴随 着 可 能 带 来 的 新 的 理论 ,方法 和 
观点 等 ,也 会 加 快 原 有 文献 价值 的 衰减 ,因此 ,通过 主 
题 -文献 匹配 方法 获取 主题 下 对 应 文献 后 ,可 以 进 一 
步 测 度 这 些 文献 的 新 细 度 并 将 其 作为 判断 该 主题 发 展 
洪 力 的 一 项 重要 指标 。 文 献 首次 公开 发 表 年 份 是 揭示 
文献 新 旧 的 常见 指标 ,一 个 主题 的 新 颖 程度 可 以 用 隶 
属 该 主题 文献 发 表 年 份 的 中 位 数 表示 ,中 位 数 越 大 代 
表 了 该 主题 内 的 大 部 分 文献 出 版 年 份 越 靠 前 ,出 现 新 
成 果 的 可 能 性 越 高 。 
3.2.2 主题 演化 分 析 

相 比 于 利用 传统 共 词 分 析 分 阶段 研究 主题 演化 的 
方式 ,本 研究 可 以 从 时 间 维度 对 于 主题 发 展 脉络 进行 
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Cn 


(12) ,108= 116; 


直接 分 析 , 具 体 方法 为 :在 利用 上 述 方法 获取 每 个 研究 
主题 对 应 文献 的 前 提 下 ,把 主题 下 的 文献 按 年 划分 ,将 
每 年 的 文献 关键 词 作为 语料库 来 计算 不 同年 份 间 关 键 
词 的 TF-IDF 值 。 按 照 TF-IDF 值 降序 排列 ,可 以 获得 
每 个 主题 每 年 的 核心 关键 词 ,通过 关键 词 突现 分 析 可 
以 对 于 主题 的 研究 脉络 有 一 个 动态 的 宏观 认识 , 辅 以 
该 主题 下 具有 对 应 关键 词 的 文献 的 内 容 分 析 能 够 较为 
细致 的 了 解 该 主题 的 发 展 与 演变 。 


4 实证 分 析 


随 着 知识 经 济 全 球 化 的 到 来 ,知识 的 生产 加工、 
创新 和 应 用 日 益 成 为 推动 经 济 增长 和 社会 发 展 的 主导 
力量 ,无 论 是 对 企业 组 织 或 是 个 人 ,知识 都 被 视 为 关键 
的 威 咯 资源 ”, 而 知识 共享 作为 分 享 .利用 和 创造 知识 
的 关键 过 程 更 是 受到 了 企业 .学 者 等 多 方 关注 ,但 与 日 
众 短 的 文献 使 人 们 难以 把 握 其 核心 知识 ,为 较为 全 面 地 
把 据 国内 外 知识 共享 研究 领域 的 知识 体系 和 发 展 前 沿 、 
援 候 研 究 的 切入 点 ,提升 企业 竞争 力 ,本 研究 以 “知识 共 
吝 丑 所 域 为 例 对 文献 - 主题 匹配 方法 进行 实证 分 析 , 在 
肉 杷 础 上 测度 知识 共享 主题 特征 并 进行 演化 分 析 。 
4 人 NI 数据 来 源 及 处 理 
ih 文 数据 来 源 于 CNKI, 以 “知识 共享 "为 主题 进行 
检 穴 ,来 源 数据 限定 为 核心 期 刊 .CSSCI,CSCD ,检索 时 
a 
陀 维 告 .报道 等 无 关 数 据 后 ,得 到 期 刊 论文 5 132 篇 ; 
英 儿 数据 来 源 于 Web of Science 核心 合集 ,以 “knowl- 
ed 臣 sharing" 为 主题 进行 检索 ,限定 语种 为 English ,时 
间 钥 度 为 1996 年 - 2020 年 ( 受 限于 数据 库 的 使 用 权 
限 , 本 单位 耳 仅 能 检索 1996 年 及 之 后 的 数据 。 知 识 
共享 的 研究 起 源 于 1990 年 ,但 1990 - 1995 年 的 发 文 
量 很 少 ” ) ,检索 时 间 为 2021 年 4 月 20 日 , 共 得 到 期 
刊 论文 5 813 篇 ,在 去 除 无 关 文献 后 ,得 到 期 刊 论文 
5 625 篇 。 每 年 文献 分 布 见 图 2, 国内 论文 数量 在 2010 
年 后 逐年 下 降 ,但 国外 论文 数量 在 2015 年 突然 激增 ， 
并 在 此 后 每 年 都 持续 上 升 。 
4.2，” 共 词 聚 类 

在 构建 关键 词 共 现 网 络 过 程 中 ,由 于 “知识 共享 ” 
是 本 文 研究 的 主题 词 ,“ 知 识 管理 "的 含义 较为 宽泛 ， 
且 出 现 频率 过 高 不 利于 聚 类 , 故 在 后 续 研究 中 去 除 这 
两 个 词语 ,选取 剩余 关键 词 进行 清洗 ,经 过 多 次 试验 ， 
选取 重奏 度 在 0.6 以 上 的 关键 词 进行 人 工 筛选 后 实现 
同义词 归并 ,后 根据 普 赖 斯 公式 计算 高 频 关键 词 阔 值 ， 


1990 1995 2000 2005 2010 2015 2020 
论文 发 表 年 份 


一 @ 一 国内 期 刊 论文 。 一 有 国外 期 刊 论文 


图 2 知识 共享 领域 国内 外 文献 年 度 分 布 


选 定 出 现 次 数 在 14( 国 内 ) ,11( 国外) 以 上 的 词 作为 高 
频 关 键 词 ,其 中 国内 论文 包含 125 个 、 国 外 论文 包含 
277 个 。 将 关键 词 共 现 和 矩阵 进行 主题 聚 类 ,其 聚 类 结 
果 强 度 分 布 如 图 3 所 示 : 


知识 共享 影响 因素 
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知识 共享 技术 770 
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1 
We 
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国内 期 刊 论文 9 国外 期 刊 论文 


图 3 国内 外 知识 共享 研究 主题 强度 分 布 


4.3 文献 -~ 主题 语义 匹配 

通过 Python 的 jieba .nltk 库 进 行 数据 处 理 , “jieba. 
load_userdict( )” 加 载 自 定 义 领域 词典 ,使 用 pytorch 实 
现 Word2Vec 词 向 量 的 训练 模型 搭建 。 然 后 , 求 出 每 个 
关键 字 的 词 频 以 及 TF-IDF 值 ,结合 训练 好 的 词 向 量 加 
权 求 和 分 别 得 到 主题 向 量 和 文献 向 量 ,利用 余弦 相似 
度 进行 主题 问 量 与 文献 向 量 的 匹配 。 经 过 多 次 实验 
后 ,发 现 将 国内 文献 匹配 阅 值 取 值 为 0.62、 国 外 文献 
匹配 阔 值 取 值 为 0.24 时 文献 - 主题 划分 效果 较 好 。 
表 1- 表 4 列举 了 国内 " 隐 性 知识 与 显 性 知识 ”主题 和 
国外 “社交 媒体 ”主题 下 10 篇 最 高 相似 度 与 10 篇 最 低 
相似 度 的 文献 ,发 现 和 主题 向 量具 有 和 较 高 相似 度 的 文 
献 的 标题 往往 包含 一 些 核心 关键 词 , 而 与 主题 相似 度 
较 低 的 文献 则 大 多 可 以 作为 该 主题 的 延伸 性 研究 。 
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表 1 “ 隐 性 知识 与 显 性 知识 ”主题 下 相似 度 


最 高 的 10 篇 文献 


文献 标题 相似 度 
基于 知识 管理 的 隐 性 知识 显 性 化 研究 0.796 
高 校 科 研 团 队 个 体 成 员 隐 性 知识 隐藏 意愿 分 析 0.796 


高 校 科研 团队 隐 性 知识 共享 意愿 影响 因素 研究 
下 基于 使 能 和 抑制 的 双重 视角 
科研 团队 显 性 知识 和 隐 性 知识 共享 意愿 影响 因素 的 对 比分 析 0 
基于 SD 模型 的 虚拟 社区 中 个 体 隐 性 知识 共享 行为 研究 0 
企业 隐 性 知识 沟通 的 动力 机 制 研究 0 
组 织 文化 变革 中 的 隐 性 知识 转移 研究 0.794 
0 
0 


中 国文 化 情境 0.796 


.795 


“795 


.794 


隐 性 知识 创新 影响 因素 的 实证 研究 
知识 管理 在 图 书馆 中 的 实施 
知识 型 企业 人 际 信任 倾向 对 员工 隐 性 知识 共享 影响 的 实证 研究 0.792 


.794 


792 


表 2 “ 隐 性 知识 与 显 性 知识 ”主题 下 相似 度 


最 低 的 10 篇 文献 


文献 标题 相似 度 
知识 管理 在 高 职 院 校 教学 基本 建设 中 的 应 用 0.612 
浅 析 知识 管理 背景 下 的 高 校 档案 馆 管理 0.612 
知识 管理 与 图 书馆 可 持续 发 展 0.612 
企业 隐 性 知识 显 性 化 过 程 与 机 制 研究 0.611 


业内 部 隐 性 知识 如 何 转 化 为 显 性 知识 ? 一 一 基于 国企 的 案例 0.611 


企 
外 
聆听 与 分 享 :真人 图 书馆 在 中 国 的 实践 及 思考 


0.611 
知识 科学 视角 下 我 国 知识 融合 研究 现状 解析 0.341 
利用 信息 技术 整合 企业 培训 资源 的 路 径 选 择 0.340 
高 校 智 力 资本 模型 及 实证 研究 0.337 
基于 知识 地 图 的 MOOC 学 习 共 同体 的 学 习 研究 0.332 


“社交 媒体 ”主题 下 相似 度 最 高 的 10 篇 文献 


a 


~ 文献 标题 相似 度 
[waa factors influence knowledge sharing in organizations? a social dilemma perspective of social media communication 0.556 
9 | knowledge sharing: a qualitative analysis of multiple cases 0.556 

an lean media support knowledge sharing? investigating a hidden advantage of process improvement 0.353 
CE of social media impacts on social capital and employee performance - evidence from tunisia telecom 0. 548 

Hog do features of social media influence knowledge sharing? an ambient awareness perspective 0.547 
Eu of social media in knowledge sharing case study undergraduate students in major british universities 0.547 
Coe of social identity and communities of practice in mergers and acquisitions 0.544 
@Nbnic competition strategy for online knowledge-sharing platforms 0. 535 

share or hide? a social network approach to understanding knowledge sharing and hiding in organizational work teams 0.533 

Us@rs’ knowledge sharing on social networking sites 0. 533 


9 
>C 表 4 “社交 媒体 "主题 下 相似 度 最 低 的 10 篇 文献 


全 文献 标题 相似 度 
二 networks under stress : specialized team roles and their communication structure 0.231 
BH Ess 
htionally creating a community of practice to connect dispersed technical professionals 0.231 
fledge-based network participation in destination and event marketing: a hospitality scenario analysis perspective 0.230 
Enacting knowledge strategy through social media: passable trust and the paradox of nonwork interactions 0.230 
Negotiating the expertise paradox in new mothers ”whatsapp group interactions 0.226 
Knowledge-sharing networks in hunter-gatherers and the evolution of cumulative culture 0.225 
Gamifying knowledge sharing in humanitarian: a design science journey 0.218 
Online formative assessments with social network awareness 0.214 
Virtual knowledge brokering: describing the roles and strategies used by knowledge brokers in a pediatric physiotherapy virtual community of practice 0.212 
Library and information science’ s ontological position in the networked society: using new technology to get back to an old practice 0. 180 


4.4 主题 特征 分 析 

4.4.1 主题 强度 与 关注 度 

国内 外 研究 主题 强度 分 布 如 图 3 所 示 ,国内 研究 
主题 聚焦 在 知识 共享 影响 因素 、 知 识 共 享 模式 与 绩效 
研究 方面 ;国外 把 研究 的 重点 放 在 了 知识 共享 带 来 的 
创新 增值 以 及 组 织 间 、 个 人 间 的 合作 协同 研究 。 相 比 
于 国内 外 知识 共享 主题 关注 度 变 化 情况 ( 见 图 4) ,对 
于 国内 研究 来 说 , 除 影响 因素 主题 外 ,其 他 主题 的 研究 


都 在 2010 年 前 后 开始 下 降 ; 如 2009 年 之 前 知识 共享 
模式 与 绩效 研究 的 关注 度 高 于 影响 因素 ,但 其 相关 研 
究 在 2009 年 后 关注 度 逐 年 下 降 ,而 知识 共享 影响 因素 
的 相关 研究 受到 了 更 多 的 重视 ,每 年 都 保持 着 较 高 且 
稳定 的 成 果 数量 ,成 为 了 当下 研究 的 主流 ;对 于 国外 研 
究 来 说 ,由 于 国外 知识 共享 还 处 在 成 果 涌 现 的 成 长 期 ， 
导致 了 强度 大 小 与 关注 度 程度 呈现 了 相似 的 变化 ,如 
2007 年 以 来 ,基于 知识 共享 带 来 创新 增值 的 研究 受到 
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丁 数 达 ， 陈 一 帆 ， 刘 超 ， 等 .基于 
(12) .108= 116， 


共 词 和 Word2Vec 加 权 向 量 的 文献 -主题 语义 匹配 分 析 方 法 [J 


/会 作 | 里 月 明天 
Ve! 2022,66 


人 有 


的 关注 逐渐 增强 ,发 展 为 当前 研究 主流 ,而 合作 协同 的 
研究 也 在 2017 年 一 举 超越 社交 媒体 ,成 为 了 国外 科研 


200 


150 


论文 数量 /篇 


一 起 一 知识 共享 影响 因素 ”一 @ 一 隐 性 知识 与 显 性 知识 


国内 外 知识 共享 研究 的 主题 重 全 与 独立 程度 来 
大 知 识 共享 影响 素 .知识 转移 这 两 个 主题 在 国内 外 


i 


| 人 员 第 二 大 关注 的 主题 。 


一 @- 知识 转移 - 量 - 模式 与 绩效 研究 一 全 知识 产权 


Vm 


现 了 国内 外 知识 共享 研究 的 不 同 发 展 方向 。 对 于 国内 
研究 来 讲 ,科研 人 员 对 于 隐 性 知识 与 显 性 知识 、 知 识 共 


碘 台 中 都 有 凸显 ,但 二 者 的 关注 度 又 有 所 不 同 。 国内 
外 对 于 影响 因素 的 关注 度 比较 高 ,而 相 比 于 国外 ,国内 
种 那 人 员 对 于 知识 转移 的 关注 自 2011 年 起 逐年 下 降 
(多 旭 4 和 图 5)。 国内 隐 性 知识 与 显 性 知识 .知识 共 
烹调 式 与 绩效 研究 .知识 产权 研究 以 及 国外 基于 社交 
媒 染 .他 新 增值 .知识 共享 技术 以 及 合作 协同 的 研究 民 


享 模式 与 绩效 研究 的 关注 度 在 2008 - 2010 年 达到 峰 
值 后 开始 逐年 下 降 ,而 对 于 知识 产权 的 关注 总 体 上 呈 
现 比 较 平稳 的 态势 ;对 于 国外 研究 来 讲 , 基 于 社交 媒 
体 .创新 增值 以 及 合作 协同 关注 度 总 体 呈 上 升 趋势 ,而 
知识 共享 技术 关注 程度 每 年 都 比较 平稳 。 
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图 5 国外 研究 热点 主题 关注 度 变 化 


总 体 上 ,相对 于 国内 知识 共享 研究 ,国外 更 加 注重 


技术 和 迭代 组织 间 合作 知识 共享 带 来 的 知识 产品、 服 
务 的 创新 增值 以 及 基于 社交 媒体 的 知识 共享 , 且 研 究 


的 递 进 性 较 强 ,表现 为 关注 度 的 上 升 有 一 个 缓慢 积累 
到 快速 攀升 的 过 程 。 而 国内 知识 共享 研究 的 内 容 更 注 


重 影响 因素 及 各 类 应 用 ,表现 为 关注 度 的 起 伏 变 化 更 
大 ,对 知识 共享 技术 和 社交 媒体 下 知识 共享 的 研究 重 
视 不 足 。 

4.4.2 主题 新 颖 度 


国内 外 每 个 研究 主题 对 应 文献 的 出 版 年 份 分 布 如 
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图 6 所 示 。 国 外 箱 型 图 的 中 位 线 整体 高 于 国内 箱 型 图 
的 中 位 线 , 由 此 可 知 ,国外 对 于 知识 共享 研究 的 新 颖 度 
整体 高 于 国内 。 具 体 来 看 ,国内 知识 共享 主题 新 疾 度 
主要 分 布 在 2010 -2013 年 ,知识 共享 的 影响 因素 以 及 
跨 组 织 . 团 队 之 间 的 知识 转移 这 两 个 主题 内 文献 的 发 


研究 虽然 起 步 早 ,但 伴随 着 新 技术 的 引入 、 相 关 法 律 法 
规 的 出 台 , 新 研究 主题 不 断 涌现 ;国外 知识 共享 主题 新 
颖 度 主要 分 布 在 2011 - 2014 年 间 , 知 识 共享 影响 
素 .合作 协同 近年 来 受到 了 科研 人 员 的 持续 关注 ,知识 
共享 技术 的 新 颖 度 较 低 可 能 是 因为 相关 技术 已 经 比较 


表 年 份 比较 新 ,知识 共享 模式 与 绩效 研究 .知识 产权 的 成 熟 , 人 研究 成 果 正 逐步 运用 到 其 他 主题 之 中 。 
20201 my 一 下 | 
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©O 
© [国外 文 论 
< 十 知识 共享 影响 因素 知识 转移 隐 性 知识 与 显 性 知识 模式 与 绩效 知识 产权 创新 增值 合作 协同 社交 媒体 ”知识 共享 技术 
总 图 6 国内 外 知识 共享 热点 主题 新 颖 度 分 布 


ON 通过 国内 外 主题 新 颖 度 测度 可 知 :中国 外 的 研究 
辖 确 上 更 具 新 颖 性 ;名 国内 外 科研 人 员 对 知识 共享 影 
响 因素 的 研究 与 运用 在 不 断 地 更 新 、 进 步 , 且 个 人 .组 
织 面 的 知识 转移 以 及 合作 协调 也 依然 保持 着 较 高 的 被 
关 绪 度 ;@ 主 题 研究 起 点 的 早晚 和 主题 新 颖 度 之 间 没 
有 守 接 联系 ;加 国内 对 于 影响 因素 的 研究 与 国外 对 于 


动 ” “改进 课堂 教学 “多 学 科 设计 ?成 为 了 核心 词 
汇 ,而 对 于 传统 组 织 的 研究 则 偏向 于 增强 “利益 相关 
者 ” 间 的 知识 共享 来 实现 组 织 的 高 效 运转 ;2011 年 起 ， 
利用 知识 共享 促进 城市 ” 、 公 共 部 门 的 可 持续 发 展 的 
研究 开始 兴起 , 男 一 方面 , 随 着 气候 问题 的 日 益 严 重 ， 
把 知识 共享 带 入 气候 变化 适应 研究 中 将 促进 决策 的 执 


创新 增值 .合作 协同 的 研究 的 强度 、 新 新 度 都 很 高 , 较 
可 能 产生 比较 前 沿 的 研究 方向 或 发 展 趋势 。 
4.5 主题 演化 分 析 

图 7 绘制 了 “合作 协同 ”主题 下 国外 科研 人 员 关 注 
情况 ,并 列 出 部 分 年 份 TOP5 关键 词 。 国 外 对 于 合作 
协同 的 研究 ,主要 聚焦 在 个 人 组织、 群体 间 如 何 实 现 
协同 来 达到 高 效 的 知识 共享 ,随时 间 推 进 ,研究 对 象 从 
企业 逐渐 向 城市 .国家 、 虚 拟 社区 扩散 ,研究 的 问题 也 
更 加 多 元 化 。 主 题 发 展 初期 主要 以 系统 平台 为 媒介 研 
究 企业 间 的 战略 合作 以 及 知识 共享 实践 面临 的 问题 ， 
基于 本 体 方法 的 “多 智 体 系统 ”成 为 了 突现 的 主题 词 ， 
通过 建立 完善 的 智 体系 统 可 以 实现 组 织 内 部 各 个 环节 
之 间 的 协同 运作 ,过 程 的 优化 改进 也 有 助 于 知识 共享 
的 实现 ;2007 年 ,知识 共享 理论 与 技术 被 引入 高 等 
教育 领域 并 受到 了 科研 人 员 的 关注 ,在 传统 的 课堂 教 
学 中 利用 信息 和 通信 技术 来 提升 课堂 协作 与 群体 互 


行 和 对 突 发 情况 的 应 对 ,如 针对 不 同 国家 治理 气候 成 
功 案例 的 学 习 以 及 所 用 理论 框架 .数据 的 共享 2 ;此 
外 ,通过 知识 共享 使 医生 患者 多 方 协同 参与 治疗 与 护 
理 ' 在 2016 年 成 为 一 个 新 颖 的 研究 方向 。2020 年 ， 
受到 新 冠 疫情 的 影响 ,组 织 的 工作 模式 与 环境 发 生 了 
很 大 的 变化 ,在线 方式 下 如 何 提高 学 生 办公 人 员 、 医 
疗 人 员 知 识 共 享 需要 进一步 探讨 与 实践 ,社交 媒体 与 
虚拟 社区 中 针对 疫情 相关 消息 与 防疫 知识 的 共 
享 ” ”受到 了 科研 人 员 的 广泛 关注 。 


S 结语 


本 文 提出 了 一 种 Word2Vec 加 权 向 量 和 共 词 分 析 
相 结合 的 文献 - 主题 匹配 分 析 方 法 ,并 以 国内 外 知识 
共享 领域 为 例 进行 实证 分 析 , 以 弥补 共 词 分 析 在 文献 
层面 测度 的 不 足 。 首 先 ,采用 自然 语言 处 理 与 文本 挖 
据 技术 对 国内 外 知识 共享 文献 的 题 录 数 据 进行 了 清 
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图 7 “合作 协同 ”研究 主题 的 演化 


次 研究 主题 ,然后 利用 加 权 Word2Vee 词 向 量 把 文献 和 
权 售 研究 主题 进行 匹配 。 实 证 分 析 结果 表明 ,该 方法 
能 够 获取 与 研究 主题 高 度 相关 的 文献 ; 相 比 于 传统 共 
词 众 析 ,该 方法 不 仅 能 从 宏观 上 探测 主题 的 演化 过 程 ， 
茵 能 利用 现 有 的 主题 测度 指标 从 文献 这 一 角度 评价 主 
题 的 发 展 状况 ,结合 主题 词 突现 深入 齐 析 主题 的 发 展 
脉 纵 与 动态 演变 。 本 研究 局 限 性 在 于 :这 是 一 种 无 监 
东风 方法 , 阔 值 需要 根据 匹配 结果 进行 主观 调整 , 较 高 
的 出 值 虽然 可 以 提高 主题 对 应 文献 的 准确 性 ,但 也 会 
时 发 一些 文献 的 潜在 主题 被 忽略 ,在 未 来 可 以 参考 监 
停 疾 题 模型 的 思想 ,如 Label-LDA .MedLDA 等 方法 , 结 
合 汗 版 地 ,作者 等 可 观察 到 的 文献 外 部 特征 信息 对 广 
还 行 标注 ,以 实现 最 优 赣 值 的 自动 化 生成 。 
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Abstract: | Purpose/ Significance | As an important method for topic identification, co-word analysis has some 


limitations and deficiencies. The combination of weighted Word2Vec and co-word analysis is helpful to clarify the 


topic attribution of specific articles, and to better analyze the evolution of topics. | Method/Process | On the basis of 


topic clustering by co-word analysis, the article vectors and the clustering topic vectors were calculated by weighted 


Word2Vec, and the semantic matching between articles and topics was carried out based on cosine similarity. | Re- 


sult/ Conclusion | The empirical analysis in the field of knowledge sharing at home and abroad shows that this method 


can better match the relevant articles to the corresponding topics, and a dynamic analysis of the topic characteristic 


and evolution can be carried out from the article level. 
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